25 октября

МТУСИ

В МТУСИ классифицировали научные статьи с помощью многомерного статистического анализа

4.3

Ученые МТУСИ применили современные методы многомерного статистического анализа и NLP для классификации научных публикаций на основе аннотаций. Полученные результаты могут служить основой для разработки автоматизированных систем, способных эффективно обрабатывать большие объемы научной информации, что особенно актуально в условиях стремительного роста числа публикаций и необходимости их систематизации.

МТУСИ

# научная литература

# научные статьи

# статистический анализ

# тексты

В МТУСИ классифицировали научные статьи с помощью многомерного статистического анализа / © Heribert3, ru.wikipedia.org

Обработка естественного языка, или NLP, — ключевой раздел науки о данных, популярный в промышленности и академических кругах. С развитием NLP растет количество докладов на конференциях и статей в научных журналах, что усложняет поиск нужной информации.

Классификация и выявление тематик в научных публикациях важны для нормализации цитирований и построения журнальных метрик, таких как квартили. В стандартных наукометрических инструментах, таких как Web of Science и Scopus, классификации присваиваются редакторами баз журналам, а публикации в этих источниках приписываются к этим же тематикам. Полноценная классификация на уровне отдельных статей существует только для мультидисциплинарных журналов, а наборы тематик устарели и почти не меняются.

Современные методы выявления тематик основываются на анализе ключевых слов и фраз, извлекаемых из названий, аннотаций и текстов статей, а также на анализе цитирований. Эти методы автоматизированы и способны обрабатывать большие объемы данных, но есть проблема с объективностью результатов, так как ключевые слова выделяет автор. Часто можно встретить набор ключевых слов, не отражающий содержание работы, к примеру: «artificial intelligence, intelligent systems, machine learning» и так далее.

В связи с этим возникла необходимость в применении универсальной методики с использованием современных алгоритмов кластеризации, которая может значительно улучшить понимание и интерпретацию научной литературы.

Владислав Головченко, бакалавр МТУСИ, под руководством доцента кафедры ТВиПМ, кандидата физико-математических наук Ирины Синевой применили современные методы многомерного статистического анализа и NLP для классификации научных публикаций на основе аннотаций.

Для более глубокого изучения текстов была применена комбинация известных подходов, но с аутентичными настройками и использованием более мощных вычислительных ресурсов. В качестве основы для анализа был взят набор публикаций с конференции Twenty-Eighth Conference on Artificial Intelligence, включающий 1406 статей. Из них 398 (28,3 процента) были приняты к публикации, что составило 3282 страницы текста, объединенных общей тематикой — искусственный интеллект. Для классификации этого массива данных были выбраны метод k-means и иерархический агломеративный алгоритм.

«Важный этап работы с датасетом – предобработка данных, включающая очистку (удаление знаков препинания, стоп-слов), токенизацию, векторизацию. Мы удалили все знаки препинания и лишние слова, а затем токенизировали текст — преобразовали его в набор слов, каждый из которых стал отдельным символом. Этот процесс известен как векторизация. Для классификации мы использовали алгоритмы k-means и иерархический на основе метода Уорда. Количество групп, которые мы определили, было основано на анализе метода силуэта (Silhouette).

Датасет включал информацию на английском языке: название работы, авторов, секцию конференции, ключевые слова, тематику и аннотацию (от 1500 знаков). На этапе отбора и предобработки мы обнаружили некоторые недостатки: дисбаланс между группами данных и пропуски знаков препинания. В частности, у двух статей отсутствовал атрибут group, а у шести — topic. Однако мы решили не учитывать эти недочеты в анализе. Частотный подход к анализу текстов, основанный на законе Ципфа-Мандельброта, ускорил процесс фильтрации и повысил эффективность. Для извлечения признаков использовался метод TF-IDF, который выделил значимые слова и определил вес каждого слова», — пояснила Ирина Синева.

Для оценки результатов при различных k использовался метод силуэта (Silhouette). Значение силуэта показывает, насколько объект соответствует своему классу и другим классам. Если многие объекты имеют низкие или отрицательные значения силуэта – в конфигурации слишком много или слишком мало классов. Этот подход позволяет обосновать число классов при обучении без учителя.

«Для нахождения количества классов были протестированы разные классификации, их сравнение проведено на основе силуэтов. Наилучшим результатом оказалось разбиение публикаций на 10 классов, для каждого класса обнаружены особенности контента. При этом было обнаружено, что распределение исходных разделов по генерализованным классам обладает рядом хороших свойств.

Агломеративный иерархический анализ на базе метода Уорда с квадратичной функцией потерь подтвердил, что массив аннотаций конференции AAAI-14 логичнее и эффективнее относить к 10 классам. Для проверки этой гипотезы о количестве классов было проведено сравнение результатов кластеризации при k=10 и k=15. Результаты показали, что при k=10 классы более сбалансированы и не перекрываются, что подтверждает предположение о количестве классов», — рассказал Владислав Головченко.

Методы, такие как k-means и агломеративный иерархический анализ, основанный на методе Уорда, продемонстрировали высокую точность и детализацию в классификации текстов с одинаковой тематикой. Исследование показало, что полученные классы носят контекстно-осмысленный характер, они легко различимы на основе наиболее часто используемых терминов. Были также выделены некоторые самостоятельные классы, связанные с изображениями, компьютерным зрением, теорией игр, экономикой, планированием, новыми алгоритмами.

В ходе исследования установлено, что математические алгоритмы, основанные на законе Ципфа-Мандельброта, а также их взвешенные модификации, обеспечивают более точное выявление терминологических особенностей и сравнение публикаций, особенно в научных статьях, где терминологическая классификация неоднозначна.

Ученые отмечают, что использование аннотаций научных работ вместо полных текстов показало свою оправданность с точки зрения экономии вычислительных ресурсов и времени, обеспечивая при этом адекватную точность классификации. Дальнейшие исследования могут быть направлены на использование полных текстов и более мощных вычислительных ресурсов, что позволит более точно идентифицировать смысловые компоненты и классифицировать научные публикации.

Исследование демонстрирует перспективность применения методов статистической обработки и их модификаций в задаче классификации научных текстов. Полученные результаты могут служить основой для разработки автоматизированных систем, способных эффективно обрабатывать большие объемы научной информации, что особенно актуально в условиях стремительного роста числа публикаций и необходимости их систематизации.

Нашли опечатку? Выделите фрагмент и нажмите Ctrl + Enter.

Московский технический университет связи и информатики (МТУСИ) — ведущее отраслевое техническое высшее учебное заведение Центральной России по подготовке кадров для IT и телеком-индустрии, подведомственное Министерству цифрового развития, связи и массовых коммуникаций РФ. Основан в 1921 году на базе Московского электротехнического института народной связи им. В.Н. Подбельского. Ежегодно МТУСИ выпускает востребованных специалистов в области связи, информационных технологий, квантовых коммуникаций, робототехники, информационной безопасности и цифровой экономики. В состав университета входят 5 факультетов, 34 кафедры, 2 филиала (Волго-Вятский и Северо-Кавказский), Колледж телекоммуникаций, Музей электросвязи, Квантовый центр, Центр робототехники, Лаборатория AR/VR, Центры заочного обучения бакалавров и магистров, Центр индивидуального обучения.

МТУСИ

# научная литература

# научные статьи

# статистический анализ

# тексты

Подписывайтесь на нас в Telegram, Яндекс.Новостях и VK

Дзен

Предстоящие мероприятия

Планетарий № 1

Санкт-Петербург

Лекция

31 Окт

200 ₽

Мифическая палеонтология

Зоологический музей РАН

Санкт-Петербург

Павильон «АТОМ»

Москва

Лекция

01 Ноя

Бесплатно

Термоядерный синтез: энергия будущего

Павильон «АТОМ»

Москва

Лекция

01 Ноя

Бесплатно

Нейропластичность мозга

Павильон «АТОМ»

Москва

Экскурсия

01 Ноя

Бесплатно

Ту-144: первый гражданский сверхзвуковой

Космонавтика и авиация

Москва

Лекция

01 Ноя

600 ₽

Черепахи: морфология застывшего тела

Центр «Архэ»

Санкт-Петербург

Лекция

02 Ноя

400 ₽

Вымирание динозавров: Что мы точно знаем

Санкт-Петербургский Планетарий

Санкт-Петербург

Лекция

02 Ноя

Бесплатно

Косатки Авачинского залива Камчатки

Центр «Архэ»

Москва

Популярное

За сутки

За неделю

За месяц

Сегодня, 07:01

Татьяна

Экологи раскрыли эволюционные преимущества алкоголя в животном мире

В мире давно идет борьба с пьянством, все больше стран пропагандируют умеренное потребление алкоголя или полный отказ, поскольку это несет большие экономические и медицинские преимущества. Между тем все больше наблюдений указывают на присутствие спирта в диких плодах, нектарах, соках. Не исключено, что в живой природе он гораздо более распространен, чем это известно. Международный коллектив ученых в новом обзоре обобщил все доступные факты и пришел к выводу, что этанол, вероятно, стал одним из эволюционных факторов для многих видов.

Биология

# алкоголь

# приматы

# эволюция

# экология

Позавчера, 10:46

Evgenia

Физики проследили фазовый переход магии в квантовой системе

То, насколько классический компьютер сможет воссоздать определенное квантовое состояние, описывается свойством под названием «магия». Ученые из США выяснили, существует ли резкий переход между состоянием «можем обойтись обычным компьютером» и «подойдет только квантовый».

Физика

# квантовый компьютер

# квантовый фазовый переход

# магия

28 октября

Елизавета Александрова

У самого центра Млечного Пути заметили вытянутую структуру

На новых изображениях сверхмассивной черной дыры в нашей Галактике ее ближайшие окрестности выглядят не так, как на опубликованном в 2022 году известном снимке.

Астрономия

# аккреционный диск

# галактический центр

# космос

# Млечный путь

# сверхмассивная черная дыра

# Стрелец A

# Телескоп горизонта событий

26 октября

Юлия Трепалина

Социологи проследили, какие семьи накапливают больше богатства

Финансовое благополучие человека зависит от разных факторов. Новое крупное исследование на примере норвежских жителей показало, как изменения в структуре семьи и смена поколений сказываются на благосостоянии людей.

Психология

# благосостояние

# богатство

# дети

# доходы

# родители

# семья

25 октября

МАИ

Ракетный двигатель, разработанный ИИ и напечатанный на 3D-принтере: фантастика или реальность?

Инженерная компания из Дубая LEAP71 сообщила, что спроектированный нейронной сетью Noyron и напечатанный в 3D-формате из меди ракетный двигатель успешно прошел первые испытания на полигоне в Великобритании. Возможно ли это — рассказал эксперт МАИ, старший преподаватель кафедры «Космические системы и ракетостроение» Иван Рудой.

МАИ

# 3D-печать

# искусственный интеллект

# нейросети

# ракетный двигаетль

26 октября

Татьяна

Генетики расшифровали ДНК «мертвеца из колодца» в норвежской Саге о Сверрире

В саге о норвежском конунге Сверрире есть эпизод о набеге на замок Сверресборг в Тронхейме в 1197 году. Нападавшие разграбили и сожгли все строения внутри, и видимо, чтобы отравить воду, сбросили в колодец мертвое тело, завалив его валунами. Останки несчастного обнаружили в 1938 году во время археологических раскопок. Сейчас генетики извлекли его ДНК и выяснили происхождение, косвенно подтвердив события, описанные более восьми столетий назад.

Археология

# анализ ДНК

# история

# Норвегия

14 октября

Алиса Гаджиева

Археологи нашли свидетельства случившегося Рагнарёка

Полторы тысячи лет назад климат в Северном полушарии резко изменился. В Дании так похолодало, что там стало невозможно заниматься сельским хозяйством. Авторы нового исследования считают, что именно этот период был прообразом Фимбульвинтера — зимы, предшествующей Рагнарёку.

История

# археология

# Бронзовый век

# Железный век

# изменение климата

# сельское хозяйство

# Скандинавия

# Эпоха Викингов

15 октября

Татьяна

Останки возрастом 2300 лет рассказали, почему в ДНК современных японцев мало коренного наследия

Сейчас Япония привлекает людей со всего мира, но так было не всегда. На протяжение десяти тысяч лет архипелаг оставался изолированным от остального мира, пока туда не начали прибывать первые «мигранты» с континента. Это показал генетический анализ останков человека эпохи Яёй.

Антропология

# генетика

# Дзёмон

# Япония

26 октября

Юлия Трепалина

Социологи проследили, какие семьи накапливают больше богатства

Психология

# благосостояние

# богатство

# дети

# доходы

# родители

# семья

[miniorange_social_login]

В МТУСИ классифицировали научные статьи с помощью многомерного статистического анализа

По теме

Мозг человека vs ИИ: в МАИ оценили способность нейросетей заменить журналистов

В НИУ ВШЭ предложили модель, которая лучше других определяет тематику текстов

Ученые подтвердили, что интенсивное курение ускоряет старение лица

Популярное

Экологи раскрыли эволюционные преимущества алкоголя в животном мире

Физики проследили фазовый переход магии в квантовой системе

У самого центра Млечного Пути заметили вытянутую структуру

Социологи проследили, какие семьи накапливают больше богатства

Ракетный двигатель, разработанный ИИ и напечатанный на 3D-принтере: фантастика или реальность?

Генетики расшифровали ДНК «мертвеца из колодца» в норвежской Саге о Сверрире

Археологи нашли свидетельства случившегося Рагнарёка

Останки возрастом 2300 лет рассказали, почему в ДНК современных японцев мало коренного наследия

Социологи проследили, какие семьи накапливают больше богатства

Комментарии

Хотите
вести колонку
в нашем
издании?

Колумнисты 60

ПНИПУ

Сколтех

ФизТех

НИУ ВШЭ

ТюмГУ

РНФ

ЮФУ

УрФУ

КНЦ РАН

МГППУ

Биохакинг: как и зачем люди делают из себя киборгов

Черные дыры, Наполеон Бонапарт и русские поселения в Америке – что может быть общего?

Фотографии, которые потрясли мир

Виза в черную дыру: путешествия во времени возможны

Незаметные, но всепроникающие: как насосы определяют облик нашей цивилизации

Кому откусит голову Дракон?

Армения: в шаге от Бергамо

Хорошо ли Вы знакомы с географией Древнего мира? Тест

В МТУСИ классифицировали научные статьи с помощью многомерного статистического анализа

По теме

Мозг человека vs ИИ: в МАИ оценили способность нейросетей заменить журналистов

В НИУ ВШЭ предложили модель, которая лучше других определяет тематику текстов

Ученые подтвердили, что интенсивное курение ускоряет старение лица

Популярное

Комментарии

Хотите вести колонку в нашем издании?

Колумнисты 60

ПНИПУ

Сколтех

ФизТех

НИУ ВШЭ

ТюмГУ

РНФ

ЮФУ

УрФУ

КНЦ РАН

МГППУ

Хотите
вести колонку
в нашем
издании?